﻿Masteratul de Lingvistică Computațională Curs: Introducere in Lingvistica Computațională Curs 1 Metode și tehnologii aplicate textului Niveluri de prelucrare a limbajului natural: prelucrări inițiale și subsintactice Curs: Dan Cristea Seminarii & proiect: Mihaela Onofrei, Dan Cristea Cât de departe poate merge mașina în înțelegerea limbajului? Cerințe pentru examen • Slide-urile cursurilor 1-14, la adresa: https://profs info uaic ro/~dcristea/teaching html => Cursurile Masteratului de Lingvistică Computaţională => Introducere in Lingvistica Computaţională => Cursuri 2020 • Tema de cercetare repartizată studentului • Utilizarea instrumentelor din pagina http://nlptools info uaic ro • Un număr de lecturi obligatorii (atribuite la seminar) • Minimum o intervenție activă la seminar – prezentarea unei lucrări, a unei aplicații, a unei tehnologii NLP etc Domeniul • Lingvistica computaţională (LC) – osatura teoretică – computational linguistics • Prelucrarea limbajului natural – zona aplicativă – natural language processing – tehnologia limbajului natural, natural language technology – tehnologia limbajului uman, human language technology Lingvistica computaţională – osatura teoretică a domeniului • Teoriile lingvistice capătă o exprimare formală • Formalismul computaţional oferă posibilităţi riguroase de descriere a intuiţiilor lingvistice • Dovada succesului: formalizările din lingvistică au fost preluate de informaticieni pentru a plasa pe ele eşafodajul limbajelor formale Domeniul • Îşi propune să studieze limbajul uman ca mijloc de comunicare om-maşină, pentru a intermedia comunicarea om-om, dar și maşină-maşină • Scopul ultim: transformarea imensei acumulări de cunoştinţe umane cuprinse în biblioteca planetară într-o zonă de explorare automată • Instrumentele de lucru: teoretice, empirice şi aplicative • Un domeniu pentru lingvişti şi informaticieni, dar mai ales pentru lingvişti-informaticieni Tehnologia limbajului natural • Limbajul vorbit • Limbajul scris • Limbajul în corelaţie cu alte modalităţi de expresie (multimodalitate) Tehnologiile limbajului natural probează capacitatea de a utiliza limbajul natural în aplicații • Proba supremă: “înțelegerea” textelor => capacitatea de a reacționa corect la mesajul codificat în text – niveluri de analiză: • lexical • morfologic • sintactic • semantic • discurs • pragmatic However, humans process texts differently… • We are not conscious about all these layers of processing • We can easily recognise erroneous messages, by skipping over errors (with respect to morphology, syntax, etc ) – therefore, our way of treating language is more like associations-based than rules-based – we integrate, combine, different sources of knowledge when taking language decisions – when educated, we recognise errors but we are not mislead by them CyRo – build a technology that interprets old Cyrillic Romanian • Train OCR classifiers to decode printed, semi-uncial and cursive Cyrillic Romanian documents • Ambitious goals of a mixt consortium – library curators – paleolinguists – image processing experts – computational linguists drd Cristian Pădurariu Probleme: - pete - deteriorări - nealinieri - distorsiuni - set neuniform de caractere - diacritice - scrieri printre rânduri ori pe manșetă - etc Sentence level segmentation Solicitat să comenteze un editorial recent al lui Dinu Patriciu, în care acesta preciza că nu crede în social-liberalism şi să aprecieze dacă, astfel, a dat o lovitură de imagine USL, Antonescu a spus că nu ştie dacă Patriciu s-a referit la USL | El a precizat că USL este o uniune social-liberală pentru că reuneşte un partid social-democrat cu un partid naţional liberal | Clause level segmentation Solicitat să comenteze un editorial recent al lui Dinu Patriciu,| în care acesta preciza|că nu crede în social-liberalism| şi să aprecieze |dacă, astfel, a dat o lovitură de imagine USL,| Antonescu a spus|că nu ştie|dacă Patriciu s-a referit la USL | Lexical units Solicitat să comenteze un editorial recent al lui Dinu Patriciu , în care acesta preciza că nu crede în social-liberalism şi să aprecieze dacă , astfel , a dat o lovitură de imagine USL , Antonescu a spus că nu ştie dacă Patriciu s - a referit la USL Lemma and part of speech (POS) Solicitat – solicita – vb să – să – conj comenteze – comenta – vb două – doi – num editoriale – editorial – sb recente – recent – adj Phonetical alternations in the root mănânc – mănânci – mănâncă mâncăm – mâncați Annotation to lemma, nominal group and syntax He did not know her name Morphological annotation • English 0 1 He he subj:>2 @SUBJ PRON 2 did do v-ch:>4 @+FAUXV V 3 not not neg:>2 @ADVL NEG-PART 4 know know main:>0 @-FMAINV V 5 her she subj:>6 @OBJ PRON 6 name name obj:>4 @-FMAINV V • Romanian Nu ştia cum o cheamă Morphological analysis dr Radu Simionescu